Chatbot Arena

https://lmarena.ai/?leaderboard🏆 LMSYS Chatbot Arena Leaderboard

https://lmsys.org/blog/2023-05-03-arena/Benchmarking LLMs in the Wild with Elo Ratings

このデータセットには、2023年4月から6月にかけてChatbot Arenaで収集された、対になる人間の好みを含む33Kのクリーンな会話が含まれています。

https://gyazo.com/369e5e00ad0549e7059a599e3d6d8408

https://gyazo.com/4fd7353e2975b97317845e6cae442f8d

このメンツでRWKVかなり上位なの面白いnomadoor.icon

1週目

https://gyazo.com/e9432a753fbda156ce51b27821f13411

仕組み

データ収集

FastChatを使用

ユーザーは2つの匿名モデルと並んでチャット

より優れていると思われるモデルに投票

投票が提出されると、モデル名が明らかにされる

→ チャットを続けるor別のモデルの組み合わせでリスタート

収集結果(1週目)

モデルの組み合わせの戦闘回数

https://gyazo.com/78f96a8d194e87ae3684fd70cf13d454

ユーザーが使っていた言語

https://gyazo.com/8ec84644190418eb9b1adea38bc3d313

ほぼ英語

Elo rating

ペアワイズ法を使った勝率(左)とElo ratingを使ったペアワイズ勝率(右)の比較

https://gyazo.com/3b7c68daf29a80e2164108b1236aece0https://gyazo.com/235766a18ddc46e730c524a2808910a0

スタイル文章の書き方や見た目（例えば、長さやマークダウンの使い方）がランキングにおいてどれだけ影響を及ぼしているのか調べる

mmluとかよりも人間の評価がやっぱり分かりやすいし腑に落ちるnomadoor.icon

日本語(にかかわらず他言語)の投票も増やして言語による評価の違いも知りたい